We present a unified and compact representation for object rendering, 3D reconstruction, and grasp pose prediction that can be inferred from a single image within a few seconds. We achieve this by leveraging recent advances in the Neural Radiance Field (NeRF) literature that learn category-level priors and fine-tune on novel objects with minimal data and time. Our insight is that we can learn a compact shape representation and extract meaningful additional information from it, such as grasping poses. We believe this to be the first work to retrieve grasping poses directly from a NeRF-based representation using a single viewpoint (RGB-only), rather than going through a secondary network and/or representation. When compared to prior art, our method is two to three orders of magnitude smaller while achieving comparable performance at view reconstruction and grasping. Accompanying our method, we also propose a new dataset of rendered shoes for training a sim-2-real NeRF method with grasping poses for different widths of grippers.
translated by 谷歌翻译
视频去抑制是一种高度均不存在的问题,因为模糊劣化过程中的运动信息丢失。由于事件相机可以通过高时分辨率捕获表观运动,因此多次尝试探索了引导视频去纹的事件的潜力。这些方法通常认为曝光时间与视频帧速率的倒数相同。然而,在实际情况下,这不是真的,并且曝光时间可能是未知的并且根据视频拍摄环境(例如,照明条件)动态地变化。在本文中,假设基于帧的相机的动态可变未知的曝光时间来解决事件引导视频去纹。为此,我们首先通过考虑视频帧采集过程中的曝光和读出时间来推导出事件引导视频去掩模的新配方。然后,我们提出了一种用于事件引导视频去纹的新的结束终端学习框架。特别地,我们设计了一种新的基于曝光时间的事件选择(ETES)模块,以通过估计来自模糊帧和事件的特征之间的跨模型相关来选择性地使用事件特征。此外,我们提出了一种特征融合模块,以有效地熔断来自事件和模糊帧的所选功能。我们对各种数据集进行广泛的实验,并证明我们的方法实现了最先进的性能。我们的项目代码和预付费型号将可用。
translated by 谷歌翻译
360 {\ Deg}成像最近遭受了很大的关注;然而,其角度分辨率比窄视野(FOV)透视图像相对较低,因为它通过使用具有相同传感器尺寸的鱼眼透镜而被捕获。因此,它有利于超声解析360 {\ DEG}图像。已经制造了一些尝试,但大多数是常规的投影(ERP),尽管尽管存在纬度依赖性失真,但仍然是360 {\ DEG}图像表示的方式之一。在这种情况下,随着输出高分辨率(HR)图像始终处于与低分辨率(LR)输入相同的ERP格式,当将HR图像转换为其他投影类型时可能发生另一信息丢失。在本文中,我们提出了从LR 360 {\ Deg}图像产生连续球面图像表示的新颖框架,旨在通过任意360 {\ deg}预测给定球形坐标处的RGB值。图像投影。具体地,我们首先提出了一种特征提取模块,该特征提取模块表示基于IcosaheDron的球面数据,并有效地提取球面上的特征。然后,我们提出了一种球形本地隐式图像功能(SLIIF)来预测球形坐标处的RGB值。这样,Spheresr在任意投影型下灵活地重建HR图像。各种基准数据集的实验表明,我们的方法显着超越了现有方法。
translated by 谷歌翻译
提供全向深度以及RGB信息对于许多应用来说是重要的,例如VR / AR。然而,由于全向RGB-D数据并不总是可用的,从场景的有限信息中合成RGB-D全景数据可能是有用的。因此,一些先前的作品试图从透视RGB图像综合RGB全景图像;然而,它们遭受了有限的图像质量,不能直接扩展RGB-D全景合成。在本文中,我们研究了一个新的问题:RGB-D全景在摄像机和深度传感器的任意配置下合成。因此,我们提出了一种新型双模(RGB-D)全景合成(BIPS)框架。特别是,我们专注于RGB-D全景可以为许多应用提供完整的3D模型的室内环境。我们设计一个融合双模信息的发电机,并用残留的辅助对手学习训练(RDAL)。 RDAL允许通过共同推断RGB全景,布局深度和剩余深度来合成现实室内布局结构和内饰。此外,由于RGB-D全景合成没有定制评估度量,我们提出了一种新颖的指标,以有效地评估其感知质量。广泛的实验表明,我们的方法合成了高质量的室内RGB-D全景,并提供了比现有方法的现实3D室内型号。代码将在接受时发布。
translated by 谷歌翻译
图像缝线旨在缝合从不同的观点拍摄的图像到与更广泛的视野的图象。现有方法使用估计的扭曲函数将目标图像翘曲到参考图像,并且同情是最常用的翘曲功能之一。然而,当由于相机的非平面场景和平移运动导致图像具有大的视差时,同性特性不能完全描述两个图像之间的映射。基于全局或​​本地同类估计的现有方法不存在来自此问题的不含问题,并且由于视差而受到不期望的伪影。在本文中,而不是依赖于基于同位的扭曲,我们提出了一种新颖的深度图像拼接框架,利用像素 - 明智的横田来处理大视差问题。所提出的深度图像拼接框架由两个模块组成:像素 - 明智的翘曲模块(PWM)和缝合图像生成模块(SIGMO)。 PWM采用光学流量估计模型来获得整个图像的像素方面的翘曲,并通过所获得的跨场重新恢复目标图像的像素。 SIGMO将翘曲的目标图像和参考图像混合,同时消除了诸如损害缝合结果的合理性的未对准,接缝和孔的不需要的伪影。为了培训和评估所提出的框架,我们构建了一个大规模数据集,包括具有相应像素的图像对的图像对,该图像对进行映像对实际翘曲和样本缝合结果图像。我们表明,所提出的框架的结果与传统方法的结果优于常规方法,特别是当图像具有大视差时。代码和建议的数据集即将公开发布。
translated by 谷歌翻译
弱监督语义分段(WSSS)的现有研究已经利用了类激活映射(CAM)来本地化类对象。然而,由于分类损失不足以提供精确的物区域,因此凸轮倾向于偏向辨别模式(即,稀疏),并且不提供精确的对象边界信息(即,不确定)。为了解决这些限制,我们提出了一种新颖的框架(由MainNet和SupportNet组成),从给定的图像级监督导出像素级自我监督。在我们的框架中,借助拟议的区域对比模块(RCM)和多尺寸细分模块(MAM),MainNet由来自SupportNet的自我监督训练。 RCM从SupportNet中提取两种形式的自我监督:(1)从凸轮和(2)根据类区域掩码的特征获得的(2)类的类别区域掩模。然后,主目的的每个像素明智的特征被原型训练以对比的方式,锐化所产生的凸轮。 MAM利用从SupportNet的多个尺度推断的凸轮作为自我监控来指导MailNet。基于Mainnet和SupportNet的多尺度凸轮之间的不相似性,来自主目的的凸轮训练以扩展到较少辨别的区域。该方法在Pascal VOC 2012数据集上显示了在列车和验证集上的最先进的WSSS性能。为了再现性,代码将很快公开提供。
translated by 谷歌翻译
学习估计对象姿势通常需要地面真理(GT)标签,例如CAD模型和绝对级对象姿势,这在现实世界中获得昂贵且费力。为了解决这个问题,我们为类别级对象姿势估计提出了一个无监督的域适应(UDA),称为\ textbf {uda-cope}。受到最近的多模态UDA技术的启发,所提出的方法利用教师学生自我监督的学习方案来训练姿势估计网络而不使用目标域标签。我们还在预测归一化对象坐标空间(NOCS)地图和观察点云之间引入了双向滤波方法,不仅使我们的教师网络更加强大地对目标域,而且为学生网络培训提供更可靠的伪标签。广泛的实验结果表明了我们所提出的方法的有效性,可以定量和定性。值得注意的是,在不利用目标域GT标签的情况下,我们所提出的方法可以实现与依赖于GT标签的现有方法相当或有时优越的性能。
translated by 谷歌翻译
事件相机感测每个像素强度更改,并产生具有高动态范围和运动模糊的异步事件流,显示出与传统相机的优势。训练基于事件的模型的障碍是缺乏大规模标记的数据。现有作品学习结束任务主要依赖于从有源像素传感器(APS)帧获得的标记或伪标记的数据集;然而,这种数据集的质量远远远非基于规范图像的那些。在本文中,我们提出了一种新颖的方法,称为\ textbf {evdistill},通过来自培训的教师网络的知识蒸馏(KD)来学习未标记和未配对的事件数据(目标模型)的学生网络图像数据(源码模式)。为了使KD跨越未配对的模态,我们首先提出了双向模型重建(BMR)模块来桥接两种方式,并同时利用它们通过制造的对蒸馏到知识,从而导致推断不额外计算。 BMR通过端到端的端到端的终端任务和KD损耗得到改善。其次,我们利用两种方式的结构相似之处,并通过匹配其分布来调整知识。此外,由于大多数先前的特征KD方法是单态的,而且对我们的问题不太适用,我们建议利用亲和力图KD损失来提高蒸馏。我们对语义分割和对象识别的广泛实验表明,Evdistill达到了比现有的作品和仅具有事件和APS帧的效果更好的结果。
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
事件摄像机是一种新型传感器,可感知每个像素强度变化,并输出具有高动态范围和运动模糊的异步事件流。已经证明,仅基于编码器解码器类似网络,单独的事件可以用于最终任务学习,例如语义分割。然而,由于事件稀疏并且大多数反映边缘信息,因此难以仅依赖于解码器恢复原始细节。此外,大多数方法对像素 - 明智的损失单独进行监督,这可能不足以完全利用稀疏事件的视觉细节,从而导致更少的性能。在本文中,我们提出了一个名为双传输学习(DTL)的简单且灵活的双流框架,以有效地增强了最终任务的性能,而无需增加额外推理成本。所提出的方法包括三个部分:事件到结束任务学习(EEL)分支,事件到图像转换(EIT)分支,以及传输学习(TL)模块,同时探讨特征级亲和信息和像素级知识EIT分支改善鳗鱼分公司。这种简单的新颖的方法导致了从事件中学习的强烈表示,并且通过最终任务(如语义分割和深度估计)的显着性能提升证明。
translated by 谷歌翻译